Brecha de fiabilidad en auditoría de benchmarks: cambio de distribución y escala
Descubre por qué la detección de contaminación en benchmarks de IA falla por cambio de distribución y escala. Estudio con 335 evaluaciones muestra la brecha.
Descubre por qué la detección de contaminación en benchmarks de IA falla por cambio de distribución y escala. Estudio con 335 evaluaciones muestra la brecha.